1
生成AIの三本柱
AI030Lesson 2
00:00

人工知能が夕焼けをただ認識するだけでなく、 虚無からその夕焼けを描き出す世界を想像してみてください。これは、既存データのラベル付けに焦点を当てる「識別モデル」から、 識別モデル——入力に対する出力の確率 $p(output|input)$ を計算することに集中するもの——へと移行するパラダイムシフトです。私たちの関心は過去の境界設定から、 根本的なデータ分布のモデリングへと移行しています。

合成の三本柱 従来の基準: p(output | input)⚔️GANs敵対的🌫️拡散モデルノイズ除去🔗Transformer系列

アーキテクチャの枠組みを定義する

私たちの分類は、それぞれが マルチモーダルな合成 および 画像合成において独自の強みを発揮する3つの異なる数学的戦略によって支配されています。

  • 生成的敵対ネットワーク(GANs):2つのニューラルネットワーク間の高リスクな対決—— 生成器 (偽造者)と 識別器 (検事)との間で行われます。この 敵対的相互作用 は、生成器が次第に区別不能なコンテンツを作り出すように強制します。
  • 拡散モデル:混沌の中から秩序を見出すプロセスです。これらのモデルは、データから 逐次的にノイズを追加し、除去することで学習します 、最終的には純粋な静的状態から堅牢な表現を構築する能力を習得します。
  • 自己回帰型Transformer:系列の建築家です。 生成型事前学習済みTransformer(GPT)次のトークンを予測する これまでのすべての文脈に基づいて、長距離にわたる一貫した物語や構造を創り出します。
アーキテクチャの連携
現代の革新は、単一の柱だけを孤立して使うことはめったにありません。スタビルド・ディフュージョンのようなシステムは、 Transformer を使ってあなたのテキストプロンプトを理解し、 拡散モデル プロセスを使って視覚的なピクセルを具現化します。しばしば 変分自己符号化器(VAEs)へと移行しています。